Learning to Generate Music with Sentiment

#survey #ISMIR #2019 #Music_Generation

ShuKumata.icon

Author: Lucas N. Ferreira, Jim Whitehead

Research institute: University of California

The problem the authors try to solve:

Link to This Paper: http://archives.ismir.net/ismir2019/paper/000045.pdf

1枚まとめ

https://gyazo.com/d5375e7fe327d45cf20802b6afabfb10

https://docs.google.com/presentation/d/1nD9A9xhAeJHU1OsKrQ-nszLJWUeL9nl2XvMkH0VLxvI/edit?usp=sharing

0. とりあえず一言

アブスト

Deep Learningのモデルはpolyphonicな音楽の自動作曲において有望な結果を示してきた。しかしながら、曲を狙ったゴールにガイドするようにモデルをコントロールするのは非常に難しい。我々は与えられた感情で自動的に音楽を生成するようにモデルをコントロールすることに興味を持っている。本論文では、与えられた感情で音楽を作曲する深層生成モデルを提案する。音楽生成に加えて、同様のモデルをsymbolicな音楽の感情分析にも用いた。我々はビデオゲームのサウンドトラックの新しいデータセットのsymbolicな音楽の感情を分類することにモデルのaccuracyの評価を行なった。結果は我々のモデルが良い予測精度を得ることができることを示していた。user studyでは、人間の被験者が、生成された音楽に意図された感情を含んでいることに同意した、しかしnegativeな音楽については曖昧な結果であった。

要するに？

狙った感情を聞き手に引き起こすような音楽を生成することは、Affective Music Compositionの分野では非常に重要。Learning to generate reviews and discovering sentimentでgenerative LSTMモデルで文書の感情の表現を教師なしで獲得できたので、本論文では音楽で同様の手法を行なってみると、同様に音楽の感情の表現を獲得してpos/neg分類を行うことができた。かつ、獲得した表現を調整することでpositive/negativeな音楽生成ができるようになった。ただし、negativeの音楽生成の方はまだ十分ではない。

1. どんなもの？問題意識は？

音楽生成はDeep Learningの応用領域として重要な領域であり、いくつかのモデルはstrong short-time dependencyをもつ異なった音楽のpieceを高い質で生成することができている。この領域の主要な挑戦として、与えられた特徴で曲を生成するdisentanglingなモデルがあげられる。

聞き手に感情を引き起こしたり、特定の感情を持つように受け取られる音楽を自動的に生成することを目標にするAffective Music Compositionの分野で、モデルの出力をコントロールできることは特に重要

応用でいうと、映画やゲームのサウンドトラックの生成や生物物理学のデータの超音波処理(sonification)、音楽療法や緩和医療を目的とした音楽生成など

Learning to generate reviews and discovering sentimentにおいて、Amazon reviews datasetで次の文字を予測することを訓練しただけにも関わらず、generative LSTMで文章の感情の表現を得ることができ、ロジスティック回帰と組み合わせることで、Stanford Sentiment Treebank datasetにおいてSOTAな感情分析の精度を達成した。このLSTMは、ほぼ全ての感情の信号を別個の "sentiment nueron"と呼ばれる与えられた感情に対応して文章を生成するようにLSTMを制御するのに用いられているnueronに保存していた。本論文では、与えられた感情に対応したsymbolicな音楽を作曲する目的でこのアプローチを探求した。また、このアプローチをsymbolicな音楽の感情分類器としても探求した。

このアプローチの評価のためには、感情でアノテーションされたsymbolicな音楽のデータが必要だが、存在しなかった(Music Information Retrievalにおいても感情検出は重要なトピックではあるが、Audio形式での研究しかなかった)ため、新しいデータセットをvalence-arousal(dimentional) model for emotionに従って、作成した。感情は30に要約し、valence axis to sentimentにマッピングした。またdatasetには、generative LSTMの学習用のラベリングされていない音楽も含まれている。

generative LSTMとロジスティック回帰を組み合わせた我々の手法と伝統的な分類器としてのLSTMを感情分類タスクにおいて比較し、約30%の精度改善が示された。さらに、user studyによって我々のモデルの生成性能についても分析した。positiveとnegativeで条件付けて生成した音楽について、被験者は生成されたpositiveな音楽については意図された感情があることに同意したが、negativeな音楽についてはどちらの評価もあり曖昧であった。

我々は本論文がsymbolicな音楽に対して感情分析を行い、感情を元に音楽生成を行うdisentangled deep learning modelを提案した最初の論文であると信じている。もう一つの貢献は、感情でアノテーションされたsymbolicな音楽のデータセットを構築したことである。これらの貢献によって、特にmulti-class problemとregression problemとしての感情を元にした音楽生成における将来の研究の方向性がひらけた。

2. 先行研究と比べてどこがすごい？

筆者曰く、symbolicな音楽に対する感情分析と、感情を元に音楽生成を行うdisentangled deep learning modelを提案した最初の論文で、感情分析においてベースラインの手法より約30％精度がよかった。

教師ありではなく、教師なしの手法なので高価なラベリングされたデータが大量には必要でなくなる。

感情でアノテーションされたMIDIデータがなかったため、VGMIDIというビデオゲームのサウンドトラックのMIDIのデータセットを作成。

3. 技術や手法のキモはどこ？

文章の感情の表現を獲得できたモデルである、Learning to generate reviews and discovering sentimentのLSTMのモデルをベースにした。

音楽の作曲のタスクを言語のモデリングのタスクとして扱うために、音楽のData Representationを工夫。

MIDIのpitchやvelocity等を自作の単語列に変換し、羅列する(e.g. A5の音符→n_86, 八分音符→d_eighth)。

感情分類を行う際のロジスティック回帰にL1正則化をかけることで、重要でない特徴量の重みを0にすることができ、感情のsignalを保持するneuronを際立たせることができた。

4. どうやって有効だと検証した？

音楽の感情分類

分類器として学習したLSTM(学習データはラベリングされているVGMIDIのデータから訓練データとして抽出されたデータのみ)とgenerative LSTM+ロジスティック回帰(学習データはunlabelなVGMIDIのデータも含む)を精度で比較し、約30％精度がよかった。(おそらくnega/posi分類のタスク)

unlabelなVGMIDIのデータはLearning to create piano performancesで行われているようにデータ拡張も行なって増やした。

教師なしの手法で教師ありと同等以上の精度が出せた。

精度が良くなったのは学習できるデータ量が多かったのが原因の可能性。

これはこれで良くて、アノテーションされたデータを用意するのは大変だけど、その処理を少なく良い精度を出せるモデルが提案されたということ。

感情で制御した音楽生成

L1正則化を行なったロジスティック回帰は4096nueronsのうち161neuronsを用いていた。ただ、Learning to generate reviews and discovering sentimentとは異なり、一つのneuronに感情のsignalが保持されていたわけではなく、複数のneuronが貢献していたので、一つのneuronの値を変えて制御することはできなかった。

遺伝的アルゴリズムを用いて、モデルがpositiveな/negativeな感情のpieceを生成するようなnueronの重みをそれぞれ探し、それぞれのモデルで生成したpieceを被験者に聞かせたところ、positiveなpieceについては確かにpositiveと判定されたが、negativeなpieceについてはpositiveなpieceよりはnegatieveよりではあるものの、評価は曖昧であった。

5. 議論はある？

6. 次に読むべき論文は？

Learning to generate reviews and discovering sentiment

LSTMで文章の感情の表現を得る(次の文字を予測することを訓練しただけにも関わらず)

本論文のモデルのベースになった手法

1000 songs for emotional analysis of music

感情と音楽生成

Investigating affect in algorithmic composition systems

ルールベースによって生成された音楽が引き起こす感情についての研究？ (Affective Music Composition)

Dynamic game soundtrack generation in response to a continuously varying emotional trajectory

second-order Markovモデルを用いて、ゲームのsceneのgraphがvalence-arousal modelに従ってアノテーションされているvideo gameのサウンドトラックを生成する。

Generating music from literature

小説からピアノの音楽を作曲する手法で、lexicon-basedなアプローチを用いて小説の感情を分類モデルで検出し、rule-basedにピアノのメロディをそれらの感情に沿って生成する。

Affective evolutionary music composition with metacompose

コード進行グラフからランダムにコードのsequenceを作り、遺伝的アルゴリズムでメロディーを進化させ、メロディーとコードのsequenceのaccompanimentを生成する手法で、ゲームのBGMをin real-timeに生成するMetaComposeというFrameworkを提案。

Automatic generation of music for inducing emotive response

Affective Algorithmic Music Compositionに、感情の分類モデルに従ってラベルづけされた音楽のcorpusからメロディとリズムを学習するようにした機械学習の観点からアプローチ。それぞれの(感情の)分類に対して、Indivisual HMMがpitchを、n-gramsが根底にあるharmonyをそれぞれ生成するように学習する。リズムは与えられた分類からランダムにサンプリング。

Deep Learningと(symbolicな)音楽生成(感情による操作を含むものは、筆者によると存在してなかった)

DeepBach: a Steerable Model for Bach chorales generation

Hierarchical Variational Autoencoders for Music

A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music?

https://ai.google/research/pubs/pub46809

Learning to create piano performances

Performance RNN?

7. メモ

ネガポジ判定・生成しかできてないので、それ以上細かい条件付けでの判定・分析は価値がありそう。

教師なしでやる音楽のタスクって他にどんなことが考えられるだろうか。

リンク

本論文で作成されたデータセットVGMIDI

https://github.com/lucasnfe/vgmidi

筆者の実装

https://github.com/lucasnfe/music-sentiment-seuron

https://github.com/lucasnfe/music-sentneuron